Étude sur l'impact du sous-langage dans la classification automatique d'appels d'offres

نویسندگان

  • François Paradis
  • Jian-Yun Nie
چکیده

Résumé: Dans cet article nous évaluons diverses approches pour filtrer le contenu « procédural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testées : la sélection de termes à partir d’un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne trouvons pas de différence significative entre le vocabulaire de référence et celui de la collection d’entraînement. Par contre le filtrage par phrases donne d’excellents résultats sur notre collection, et peu même avantageusement être combiné à d’autres techniques de sélection.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Violence du langage dans l’œuvre dramatique de Samuel Beckett : la quête du néant

L’homme beckettien représente grosso modo sur la scène de théâtre des années cinquante le spectacle de souffrance physique et de désintégration totale du sujet qui est le fait d’un trauma et d’un complexe plus profonds, celui du vide de matières scéniques et du mal fondamental qu’on traiterait d’existentiel. En d’autres termes, le mal est dans ce monde quelque chose d’inné chez l’être humain. C...

متن کامل

Étude des mesures de similarité sémantique basées sur les arcs

RÉSUMÉ. Les mesures de similarité sémantique sont des fonctions très utilisées dans plusieurs domaines de l’informatique parmi lesquels nous pouvons citer le Traitement Automatique du Langage Naturel (TALN), la Bioinformatique, la Recherche d’Information... Elles permettent de déterminer la similarité entre des termes ou concepts qui n’ont aucune ressemblance syntaxique. L’objectif de ce papier...

متن کامل

Traiter les documents XML avec les « contextes de lecture »

RÉSUMÉ. Le langage XML autorise, par sa souplesse de structuration, des manipulations du contenu qui créent parfois des ruptures arbitraires dans le flot naturel du texte. Ces caractéristiques soulèvent des difficultés lorsque l’on souhaite mettre en œuvre des techniques d’analyse automatique du contenu des documents XML. Cet article présente cette problématique et y répond, sur le plan théoriq...

متن کامل

Etude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents

RÉSUMÉ. Dans cet article, nous comparons les résultats produits par différentes approches de résumé multi-documents. Nous opposons deux approches classiques à la nôtre qui place la modélisation de la diversité informationnelle du corpus au centre du processus. Nous évaluons également l’impact de différentes mesures de similarité entre phrases. Les expériences, menées sur le corpus RPM2, montren...

متن کامل

Regroupements non-disjoints de mots pour la classification de documents

RÉSUMÉ. La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article,...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005